查看原文
其他

崔国斌:网络反爬虫措施的法律定性 | 中法评 · 思想

崔国斌 中国法律评论
2024-09-23


崔国斌

清华大学法学院教授

知识产权法研究中心主任


网络平台面向公众提供数据服务时,常常综合采用各种反爬虫措施,限制用户使用爬虫工具批量下载平台数据,以维持自身对平台数据的有效控制。用户使用爬虫工具获取原本可以人工访问的平台数据,可以扩大数据收集的规模,并节省成本。在平台与用户利益发生冲突时,法律不应无条件地保护平台采取的技术措施,相反,应维持技术措施的有效性门槛,避免过度增加社会成本。反爬虫措施本身是否直接受法律保护(禁止规避),与平台是否对底层数据享有法定权益以及使用数据的行为是否侵害该权益,并无直接关系。


平台限制爬虫的“机器人协议”并非有效的技术措施,并不直接受到法律保护。平台识别和封禁网络爬虫的技术措施,也可以通过变换IP地址、注册更多账户、模仿人工验证等方式被合理规避,这有助于维护用户在公共领域的行动自由。不过,用户在获取平台数据时,不得通过盗取访问密码与加密算法等不正当方式破坏平台的“接触控制”类技术措施。平台用户协议中限制用户使用爬虫工具的约定,通常具有法律约束力。承认该约定有效时,配套的安全阀机制是,非营利目的的科学研究目的使用和单一来源数据的反垄断规制。




本文首发于《中国法律评论》2023年第6期思想(第157-174页),原文21000余字,为阅读方便,脚注从略。如需引用,可参阅原文。购刊请戳这里。



目次


一、引言

二、保护技术措施的目的及门槛要求

(一)保护法定权益的技术措施(二)保护非法定权益的技术措施(三)技术措施的有效性门槛

三、限制爬虫的“机器人协议”

(一)相对薄弱的民事权益基础(二)“机器人协议”的技术有效性

四、识别并封禁爬虫的技术措施

(一)典型的识别和封禁措施(二)正当规避反爬虫措施(三)不当破坏接触控制措施

五、用户协议中的反爬虫约定

(一)“私立知识产权”理论(二)支持反爬虫约定的理由(三)数据获取的“安全阀”

六、结论



引言


开放的网络平台通常允许普通公众或注册用户以人工方式浏览其网页或客户端,获取实现服务目的所需的有限数据,但是反对他们使用自动化工具(网络爬虫)下载超出服务范围的额外数据。


平台针对常见的反爬虫措施大致可以分成如下几类:(1)机器人协议(robots protocol),即平台在自己的服务器根目录下存储的“robots.txt”文件中,以网络爬虫能够读懂的程序代码作出声明,明确自己是否接受爬虫的访问,以及爬虫可以访问的内容范围;(2)识别与封禁爬虫的技术措施,即平台通过浏览器或客户端验证、智能验证码、访问行为模式分析等动态识别并阻止爬虫访问的技术措施;(3)反爬虫约定条款,即平台要求用户注册并接受的用户协议中限制用户利用爬虫的合同条款;(4)数据包加密措施,即平台对服务器端向用户端传输的数据包进行加密,防止用户解析爬虫抓取的数据的技术措施;(5)动态加载措施,即平台在用户浏览器或客户端动态加载数据(渲染),增加爬虫识别目标数据内容难度的措施。


不过,在网络空间里,即便网络平台综合采取各种反爬虫措施,依然无法做到百分之百的有效。比如,著名的社交网站领英(LinkedIn)的用户协议禁止用户使用自动爬虫工具下载数据或规避其反爬虫措施。同时,它也的确采取技术措施阻止用户使用网络爬虫工具。尽管如此,2021年依然有报道说,有黑客通过网络出售LinkedIn用户的公开背景信息500万条,超过该平台当时用户总数的三分之二。类似的大型平台数据失控的报道比比皆是。


从网络平台的角度看,限制公众使用网络爬虫自动抓取数据的主要原因可能有如下三方面:其一,网络平台在创作平台内容或收集用户数据时付出实质性的投资,希望维持自己对平台数据的控制并从中获利,避免他人“搭便车”。其二,网络平台数据中可能体现了用户的个人信息、商业秘密、著作权等,平台可能认为有必要避免公众利用爬虫工具下载数据损害用户权益。其三,网络平台担心爬虫的高频访问会增加平台的服务器负担,消耗有限的服务器带宽资源,影响平台服务器响应正常的用户访问请求,增加平台的商业成本。


从公众或用户的角度看,网络平台限制使用自动访问工具,会大大限制其获得数据的规模,并增加用户获取和利用数据的成本。虽然用户通过自动访问工具能够获取的数据,通常也都可以通过人工访问来获得。不过,爬虫下载数据的效率比人工浏览高出成千上万倍。如果法律支持平台通过技术措施或用户协议限制用户使用爬虫工具来获取数据,将大大降低用户利用数据的效率,从而减损社会福利。


显然,法律对平台反爬虫措施的定性,是一项两难选择。决策者需要仔细权衡一项反爬虫措施背后的社会成本和收益,才能作出正确的选择。本文接下来第二节先从技术措施保护的正当性基础出发,分析法律保护技术措施的底层原因,然后分别将它应用到“机器人协议”(第三节)和“识别和封禁爬虫的技术措施”(第四节),具体分析用户使用爬虫行为的合法性。最后,第五节具体分析平台和用户之间的反爬虫约定的法律效力,为法院处理此类争议提供明确的指引。


需要特别强调的是,在后续的讨论中,本文关注的焦点是,网络反爬虫措施本身是否应当获得法律的直接保护,即法律是否应该直接禁止用户规避此类措施,而不是平台数据本身是否应该获得某种保护或用户利用该数据的行为是否侵权的问题。后一问题在学术界已经有大量的深入讨论,本文无意涉及。将反爬虫措施的法律属性与平台数据的产权问题混在一起讨论,会制造更多的理论混乱。


保护技术措施的目的及门槛要求


网络反爬虫措施本质上是一种技术措施。在探讨法律是否有必要保护反爬虫这一技术措施之前,有必要简要说明,法律在保护网络平台民事权益的实体法基础之上,又进一步保护网络平台所采取的技术措施的原因。


(一)保护法定权益的技术措施


理论上,如果民事立法准确地定义了网络平台的权益,使得它无须超出这一范围限制公众的任何行为,则法律似乎无须对平台所采取的技术措施进行重复保护。这是因为技术措施试图限制的任何行为,都落入了法定权益的范围。


究竟主张侵害民事权益,还是侵害技术措施,对权利人而言,在实体法上的区别不大。正因为如此,美国版权法禁止规避权利人“接触控制”类的技术措施(限制接触作品),却没有禁止规避“权利保护”类技术措施的规定。对于后一类技术措施,只是禁止行为人帮助他人规避它。美国法院在暴雪公司与MDY公司案中明确说明了这一立法背后的逻辑:立法者认为无须禁止规避“权利保护”类技术措施,因为行为人规避该技术措施后通常也要侵害著作权,所以无须重复规定规避此类技术措施的法律责任。


同样地,如果反爬虫措施所保护的民事权益已被法律确认,而使用爬虫损害该权益,则权利人可以就该民事权益寻求法律救济,并不需要法律单独保护平台的反爬虫措施。比如,平台数据为平台享有著作权的作品,公众超出许可的范围利用爬虫大量下载数据,则会侵害平台对作品享有的“复制权”。权利人可以通过追究“复制权”侵权责任的方式来阻止公众利用爬虫进行的数据下载行为,而无须依赖法律禁止公众规避反爬虫的技术措施。


不过,立法者并没有完全接受上述思路。在很多时候,即便民事权益已经受法律保护,立法者依然会保护权利人为保护该民事权益而采取的技术措施。比如,著作权法就禁止规避保护著作权或邻接权的技术措施,或为上述规避行为提供帮助。其中的原因可能是多方面的,最重要的理由应该有两项:


其一,保护技术措施能够更有效地保护底层的民事权益。理论上,如果法律只保护底层民事权益,而不直接保护技术措施,平台在追究用户直接侵害底层民事权益的法律责任时,也可以追究向该用户提供规避工具的第三方的间接侵权责任。不过,这时的救济措施依然受限于底层民事权益侵权救济的基本框架。相反,如果立法直接规定技术措施受保护,并规定相对独立但严厉的法律责任(包括民事、行政甚至刑事责任),则会抑制公众破坏技术措施的积极性,进而使得底层的民事权益受到更有效的保护。


同时,由于平台的技术措施受保护,法律禁止上游主体研发并对外提供规避该技术措施的工具,也就更顺理成章。相反,如果法律不直接保护技术措施,平台要追究规避工具提供者的法律责任,就需要经过复杂的帮助他人“间接侵权”(帮助“帮助侵权”)的法律推理,存在很大的不确定性。


其二,直接保护技术措施,能够节省纠纷解决的成本,避免平台与用户之间的技术竞赛导致的资源浪费。即便法律保护底层的民事权益,很多平台依然会进一步采取技术措施保护该民事权益。这是因为事前利用该技术措施阻止的侵权行为的成本,可能远远超过事后通过诉讼的维权成本。换言之,采取自助的技术措施比诉诸公权力更有效率。


在这一背景下,法律直接禁止公众规避此类技术措施,在一定程度上抑制公众采取规避措施的积极性,避免双方不断提升技术措施与规避措施所导致的资源浪费,也可以帮助平台节省纠纷解决的成本。


(二)保护非法定权益的技术措施


以上分析的是法律确认底层民事权益时,保护技术措施所带来的收益。除此之外,在立法者并未明确确认底层民事权益受保护的情况下,法律保护技术措施依然有其合理性。


比如,著作权法并不限制公众私下对作品的“接触”(播放)。再如,用户破坏DVD盘上防跨区播放的技术措施,私下在未获许可的区域播放该DVD盘上存储的视听作品,并不侵害权利人的受保护的独占权。又如,网站对外提供作品,但仅仅许可授权用户在线观看。如果未经授权的公众规避该技术措施(比如盗用授权用户账号),在线观看作品内容,也不侵害著作权人享有的独占权。但是,美国著作权法禁止用户规避上述控制接触的技术措施。显然,接触控制措施就使得权利人能够超出版权立法赋予的权能的范围,实现更多的控制。


接触控制对于权利人很重要,为什么立法者不直接规定此类权利,而选择通过保护接触控制措施的方式来间接保护呢?二者的区别在于保护力度。如果直接规定接触控制权,则可能使得所有著作权人都增加了一项权利,而其在多数情况下并不需要。


比如,不以形成复制件为目的个人阅读、播放或浏览行为在多数情况下是无害的,著作权法无须限制。为了部分权利人在特定情形下的需要,规定宽泛的接触权、浏览权或使用权,很可能是没有效率的。相反,如果不保护底层权益,但保护接触控制类技术措施,则可以实现更精确的赋权——只对那些有实际需要因而采取接触控制的技术措施的权利人提供有限的保护。


在平台数据爬取问题上,也存在这样的可能性:立法规定宽泛的数据复制权或非公开的使用权,将妨碍社会公众对公开数据的有效利用;如果立法不保护数据复制权或使用权,而是选择保护网络平台采取的有效反爬虫措施或合同约定,则可以选择性地保护那些十分在意自己在数据收集方面付出的投资的平台。那些未采取有效技术措施或未作约定的平台的数据,则仍然处在可以自由利用的状态。


此外,有时候即便法律并未确认保护底层的民事权益,保护技术措施依然有一定的合理性。如前所述,即便法律未明确确认网络平台对自己收集的数据享有民事权益,这并不妨碍平台对此类数据的实际控制给平台带来竞争优势,从而是有价值的。


比如,在领英公司与HiQ公司案中,美国法院可能并不认为领英公司对其用户的公开数据享有排他性的权益,但是,领英公司依然可以通过技术措施对它进行实际控制,使它相对于难以利用爬虫获得该数据的HiQ公司而言具有竞争优势。


因此,即便法律不保护此类权益,平台依然会采取反爬虫等技术措施。这很可能会触发平台与用户之间在爬取和反爬取方面的技术竞赛,从而导致一定程度上的社会资源的浪费。这时候,如果法律宣布保护某些反爬虫技术措施,则双方的技术竞赛可以适可而止:公众规避反爬虫措施的动机受到抑制后,平台在反爬虫措施的投入可以适可而止。这有点类似商业秘密法禁止公众破坏权利人采取的合理保密措施,这样就可以避免权利人在保密措施方面的过度投入。


当然,在考虑是否保护技术措施时,决策者不仅要考虑底层民事权益的重要性,还要考虑技术措施保护增加的社会成本。以反爬虫技术措施为例,如果法律保护此类技术措施,禁止公众规避,则不可避免地会限制公众在公共领域的行动自由,增加公众接触或获取平台数据的成本。这自然会导致社会福利的损失。为了避免过度的技术措施保护带来的负面影响,法律要求权利人所采取的技术措施应该满足最低的有效性要求。接下来将对此进一步探讨。


(三)技术措施的有效性门槛


技术措施的有效性,是指该措施事实上阻止用户接触或获取受保护数据的可能性。只有一项技术措施事实上能够有效阻止大多数用户未经授权接触数据内容时,才算满足了有效性的要求,从而得到保护。法律强调技术措施的有效性,至少可以产生三方面的社会效果:


其一,确保公众轻易就能了解网络平台限制公众接触其数据的意图和可能的权益边界。这与商业秘密法对于保密措施的合理性的强调,思路一致。在商业秘密法下,合理保密措施“至少应当能够使对交易对方或者第三人知道权利人有对相关信息予以保密的意图,或者至少是能够使一般的经营者施以正常的注意力即可得出类似结论。”


换言之,合理保密措施可以帮助明确特定商业秘密的边界,确保公众不会在无意之中侵害商业秘密,从而保护公众在公共领域的行动自由。按照类似的逻辑,保护其他信息内容的技术措施,也应达到类似的程度,才有可能获得法律的保护。


其二,避免普遍的选择性维权导致的社会不公。法律要求技术措施能够有效阻止公众获取平台数据,不仅仅起到前面提到的明确平台保护意图或明确民事权益边界的作用,还能够保证大多数用户事实上在法律面前得到公平对待。其中的道理在于:如果技术措施事实上并不能有效地阻止大多数用户获取数据,则意味着用户可以轻易规避该技术措施并获得数据。面对海量用户的规避,网络平台一般无力阻止,最终只能选择性地维权。


这样一来,那些认真对待技术措施而不规避它的用户,很快会发现当自己与其他同样规避平台技术措施但未被追究责任的大量用户竞争时,处在不利的竞争位置上。而这并非该用户自主选择的结果。网络平台选择性地维权,也会使得这部分用户感受到法律的不公。因此,与商业秘密法要求保密措施达到一定的“强度”的做法类似,法律在决定是否保护反爬虫措施时,也会考虑该措施本身是否达到合理的强度,即是否具有事实上或技术上的有效性。


其三,提升技术措施的商业成本门槛,避免它被滥用。法律强调技术措施的事实上或技术上有效性,通常意味着网络平台必须为技术措施付出实质性的成本,才能达到法律的要求。这一成本既可能是技术措施本身的研发或运行成本,也可能是用户为满足技术措施要求而付出的成本。比如,平台可能要求用户注册后使用密码登录,这可能属于比较有效的技术控制措施,不仅仅增加平台的成本,也会实质增加用户的成本。用户成本的增加最终会导致平台用户的流失。


因此,如果技术措施的成本是实质性的,则平台在采用技术措施时,会更加谨慎,可能只会有选择地保护那些对自己而言很有价值的核心数据,而用户因此有机会获取更多的外围数据;相反,如果技术措施的成本很低或者接近于零,法律依然保护此类技术措施,则很可能导致平台滥用该技术措施——轻易“圈禁”对它而言无关紧要但对公众而言可能很有价值的数据信息,大大压缩公共领域的行动自由,增加社会成本。


限制爬虫的“机器人协议”


网络平台的反爬虫措施多种多样,我们探讨规避或破坏反爬虫措施的合法性,自然需要分门别类地进行。接下来,挑选三类典型的反爬虫措施,分别加以讨论:即“机器人协议”、识别与封禁爬虫的技术措施、用户协议中的反爬虫约定。本节集中关注限制爬虫的“机器人协议”。如前所述,机器人协议本身并非合同法意义上的“协议”,而是一项类似“店堂告示”的技术措施,使得访问平台的网络爬虫能够自动获悉该平台对待网络爬虫的态度。


这里的核心法律问题是,如果平台在“机器人协议”中明确排除特定网络爬虫,则该网络爬虫是否应该尊重该告示内容,主动避免爬取平台数据呢?换言之,该“机器人协议”是否产生法律上的约束力?本节尝试应用上述技术措施保护的一般理论简要回答这一问题。


(一)相对薄弱的民事权益基础


如前所述,法律要保护一项技术措施,通常是为了更有效地保护底层的民事权益,减少私人自助措施竞赛所耗费的社会成本。不过,技术措施的类型不同,它对应的民事权益的重要性自然也就不同,由此产生的负面影响也不同。


与普通的保护商业秘密或作品的技术措施不同,“机器人协议”作为一种技术措施,适用的是平台对外提供数据的场景。这时候,平台的数据条目处在公众原本就可以人工访问和下载的公开状态,不具有秘密性。网络平台通过机器人协议,限制用户利用爬虫获取这些数据条目,不属于商业秘密法意义上的合理保密措施,也没有使得任意数据条目的公开属性发生变化。因此,用户通过网络爬虫对平台通过前台对外提供的数据的收集和汇总,以及随后对该数据的利用行为,也不侵害平台后台存储的商业秘密类数据集合。


对于这类平台数据,法律通常只需要限制用户获取数据后的竞争性的公开传播行为,无须限制用户对公开数据的访问、下载和使用行为。实际上,部分用户通过人工手段也可以下载相当数量的数据,只是成本要高很多。因此,从平台的角度看,即便有用户使用爬虫工具获取实质数量的数据,这一结果通常也并没有超出平台的想象,也不是毁灭性的。


如果用户爬取数据后竞争性地公开提供其爬取的数据,这很可能对平台的利益产生实质影响。这时候,法律直接禁止用户对外提供数据,就可以解决问题。这比禁止用户违反“机器人协议”这一宽泛的禁令要更有针对性,保留了公众获取和利用数据的机会,降低社会成本。


上述分析表明,平台对于反爬虫类技术措施的依赖,与著作权人对于“接触控制”类技术措施的依赖,有很大的差别。后者对于部分对外提供作品的著作权人而言,至关重要。如果著作权人采取的接触控制类技术措施被随意规避,则著作权人无法阻止未经授权者对其平台的访问,从而难以通过内容提供服务获得足够的回报。而法律是否禁止用户规避平台的反爬虫措施,对于平台维持自己商业模式的竞争力,并不十分关键。


当然,这里并不是说,平台不对数据享有权益时,限制公众大规模下载和利用平台数据,就对于平台本身没有商业意义。实际上,恰恰相反。如果平台能够有效控制大规模下载,平台就能够通过合同交易将这一控制权转化为实际的商业利益。这里并不否认这一事实,而是认为即便法律不帮助平台强化这一控制权,平台本身也有能够维持现有的商业模式,并从中获利。


此外,如前所述,即便平台对数据不享有权益,它在防止用户利用爬虫过度频繁访问服务器方面,还是存在值得保护的利益。只不过,法律直接禁止过度频繁的访问行为即可,而无须预防性地禁止用户规避“机器人协议”,这会制造更多的次生危害。


(二)“机器人协议”的技术有效性


“机器人协议”作为一种反爬虫措施,实际上并不能有效地阻止公众使用爬虫获取数据。如前所述,它只是机器可读的“店堂告示”,只有那些愿意遵从“机器人协议”规范的爬虫,才会主动避免访问平台声明限制的数据。如果用户爬虫选择无视该网络声明,则依然可以访问该服务器并下载数据。


显然,“机器人协议”不能为爬虫访问服务器抓取数据制造物理障碍。如果法律保护此类技术措施,禁止公众规避,则很可能会出现普遍的选择性维权的后果:只有少数被平台识别出来的使用爬虫的用户被追究责任,绝大多数用户的身份难以确定。如果平台的数据对于用户有重要的商业价值,这实际上使得遵守机器人协议的用户,在市场竞争中处于明显的劣势地位。比如,在奇虎诉百度案中,法院就认为百度利用机器人协议排除奇虎的搜索引擎爬虫的做法,导致奇虎在竞争中处于劣势,没有正当性。


不过,有意思的是,在该案中,奇虎实际上选择无视该机器人协议。在百度通过法院强制要求奇虎停止使用爬虫工具前,奇虎可能并未实际受损。


另外,网络平台通过机器人协议或用户协议限制用户使用网络爬虫,不过是在平台服务器根目录下的“robots.txt”文件中增加几行限制爬虫的字符,这么做的成本几乎为零。如果法律确认此类反爬虫措施具有约束力,则网络平台可能轻易将对它而言无关紧要但对公众可能很有价值的信息纳入反爬虫措施的保护范围。普遍遵守这一“机器人协议”,意味着网络爬虫在下载任何网络地址信息之前,都需要前往该网站服务器根目录下的“机器人协议”去了解授权情况,这将系统性增加公众获取和利用网络数据的成本。


法律拒绝承认“机器人协议”的约束力,希望控制数据的网络平台会转而采用其他更为有效的反爬虫措施,比如,采用应用程序编程接口(API)访问密码控制、要求用户注册并接受反爬虫条款、采用爬虫识别和封禁措施等。但这些措施的研发、运营和管理有实质成本,也不一定适合所有的商业模式。因此,只有有效保护数据对于平台经营必不可少时,平台才会耗费额外资源建立起这样有效的反爬虫控制措施。从社会的角度看,反爬虫措施的实施成本限缩了这一技术措施的应用范围,从而将更多的数据留在公开领域。


有人可能会担心,法律不保护“机器人协议”,会引发平台和用户(规避者)之间的技术竞赛,浪费社会资源。的确,“机器人协议”不受保护,更多的用户会使用爬虫工具。作为回应,平台会采取其他更复杂也更有效的反爬虫措施。面对更有效的反爬虫措施,部分用户也会相应地提升自身的规避措施。于是,双方的技术竞赛不可避免。


不过,这并不意味着法律对于技术竞赛的干预越早越好。如前所述,受保护的技术措施的门槛越低,它就越容易被滥用,损害公众接触和利用公开数据的机会,同时也会出现选择性维权的不公平后果。保护“机器人协议“,则几乎等于完全移除了技术措施的有效性门槛,任由平台自行定义数据产权规则,这肯定是不能接受的。


识别并封禁爬虫的技术措施


对于爬虫敏感的网络平台,除了利用“机器人协议”排除爬虫外,还会采取更为有效的识别和封禁爬虫技术措施。相应地,用户在遇到这些反爬虫措施时,也会采取相应的规避措施。在这一对抗过程中,法律是否保护这些识别和封禁爬虫的技术措施,对于双方的利益平衡有重要的影响。接下来,先简要介绍典型的识别与封禁爬虫的技术措施,然后分析针对性的规避措施在法律上的定性。


(一)典型的识别和封禁措施


平台识别与封禁爬虫的技术措施五花八门,常见的类型是:(1)网络平台为用户设置访问频率或下载数据规模的阈值。用户使用爬虫工具过度访问就很容易超过这一阈值,从而触发后续的封禁措施,比如,暂时或永久禁止用户继续访问等。(2)动态渲染客户端呈现的内容,使得爬虫难以掌握页面内容的呈现规律,从而难以自动从中获得数据。(3)随时进行人工验证。平台在提供数据服务时,随时要求用户参与人工访问验证。比如,回答针对自然人的一些随机问题或者随时要求提供手机短信验证码。如果用户无法通过人工验证,则停止向用户提供数据服务。对于上述各项识别与封禁爬虫的技术措施,平台可以综合采用。显然,反爬措施越多,用户爬取数据的难度就越高。


不过,每一种反爬虫措施也都有自己的局限。比如,针对网络平台为用户设置的访问频率阈值,用户可能注册多个账号,不断变换账号访问;或者,不断变换自己客户端设备的网络地址信息,比如媒体访问控制地址(MAC地址),使得平台难以掌握自己的确定身份。针对客户端的动态渲染的内容,用户还是有可能通过仔细观察而发现其背后的规律,从而破解出内容的呈现规律,重新组合出自己要爬取的内容。针对人工验证措施,用户也可以开发出更高端的智能程序,模拟出人工应对的效果,从而骗过平台的服务器。因此,平台要完全禁止用户的爬虫,技术上是不可能的。


(二)正当规避反爬虫措施


与“机器人协议”不同,上述反爬虫措施更积极主动地识别爬虫,并采取相应的封禁措施。这些反爬虫措施是否应当被禁止,是更难回答的问题。如前所述,这些反爬虫措施也只是在限制用户获取数据的方式,而不是从根本上限制用户获得的数据的范围。它所保护的民事权益,对于平台而言,重要性依然是相对有限的,这使得从法律上保护这些反爬虫措施的必要性也不是十分突出。不过,这些反爬虫措施在技术上相对有效,普通用户并不掌握规避的方法,因此,不会轻易就承担规避技术措施的责任风险。这一点倾向支持从法律上保护此类反爬虫措施。


不过,如果法律保护此类反爬虫措施,禁止公众通过注册更多的账号、变换IP地址、隐藏MAC地址信息、分析平台终端的渲染方式等方式获取平台数据,则会对于专业用户的经营自由有实质性的影响。


众所周知,在网络空间中,专业用户日常从事的网络行为,与上述规避爬虫的行为并无截然的界限。比如,专业用户可能同时要从多个渠道收集信息,使用自动化的工具单纯是为了提高工作效率,而未必是为了从特定网站获取大规模的数据,但是,它对特定平台的访问很容易就触发其反爬虫措施,在平台设置较低访问阈值的情况下尤其如此。专业用户使用代理服务器隐藏或变换自身的IP地址、注册更多的用户账号登录等,也很可能是为了保护自身的隐私、商业秘密或言论自由。


换言之,用户原本就有正当的理由这么做,而且其行为并无明显的合理性的限度,因此不宜被直接禁止。否则,法律制度的管理成本高昂,且很容易就损害用户的自由。因此,法律合理的选择应该是,容忍用户的上述规避行为,避免在模糊地带划线。如果网络平台对这一默认的规则不满意,希望更有效地阻止用户爬虫,可以提升反爬虫措施的技术水平,使得更多的用户无法规避;或者,利用用户协议,禁止用户规避反爬虫措施,并强化协议的执行。


有意见可能会认为,法律可以保护此类反爬虫措施,如果出现不合理地损害了用户的上述自由的后果,用户可以通过法律程序来制止平台采取上述反爬虫措施,而不是直接采取对抗性的规避措施。这一想法并不现实。通过正规的法律程序纠正平台不合理的反爬虫措施成本高昂,而且判决很难落实和执行。如果网络平台以反爬虫的名义可以轻易损害公众的上述自由,则法律不应将纠正这一错误的程序成本强加给数量众多的用户。


对照商业秘密保护法,我们可以将规避上述反爬虫措施获取数据的行为视为类似于“反向工程”类的合法行为,而非不当获取行为。


这里的“反向工程”是指“通过技术手段对从公开渠道取得的产品进行拆卸、测绘、分析等而获得该产品的有关技术信息”。比如,不受合同约束的软件用户可以对合法获得的软件进行分析研究,以获取软件源代码及背后的技术秘密。商业秘密法许可反向工程,可能是因为阻止反向工程的成本很高(难以与独立研发区分),而许可观察目标产品,有助于获得有用知识以改进它或研发新的产品。同时,反向工程也需要耗费实质的成本,这在一定程度上限制了竞争对手搭便车的幅度。


另外,合法的反向工程的威胁,客观上起到敦促权利人主动采取更有效保密措施的作用,避免公众无意中侵权,从而增加了社会福利。与“反向工程”类似,上述规避反爬虫措施的行为,原本就有合法的动机,限制用户这么做会带来直接的负面影响;从中识别出违法的行为类型,也很困难。因此,像商业秘密法对待反向工程一样,法律避免直接干预上述规避措施,依然是最好的选择。当然,这会在一定程度上刺激网络平台和用户之间的技术竞赛,这是法律在保证公众自由和降低制度管理成本时,不得不付出的对价。


(三)不当破坏接触控制措施


除了上述正当的规避措施外,用户可能会通过不正当的手段破坏平台的限制未授权用户接触其数据的“接触控制”措施,盗取平台的访问权限,进而使用爬虫工具获得超过范围的数据。比如,平台在服务器端设置的应用程序编程接口(API)访问密码,禁止未经授权的用户登录并获取数据内容;或者,平台在客户端对数据包进行加密,使得非授权用户无法解读该数据包内容。访问密码的限制措施很容易理解,无须进一步说明。平台对数据包进行加密,则需要稍作解释。平台之所以这么做,是因为有时候服务器向客户端传递数据包,仅仅在授权的客户端呈现数据包内容,但不允许用户在客户端之外保存,也不允许未经授权的客户端呈现数据包内容。


此类访问密码或加密算法通常很难破解,在商业秘密法上通常也被视为合理的保密措施。如果用户采用黑客手段盗用普通用户的账户登录密码;或者,通过威逼利诱员工违反保密义务向其提供平台的加密算法,然后利用该用户密码或加密算法,批量获取平台的数据信息等,即用户利用上述不正当手段破坏网络平台的接触控制类技术措施后,接触并获取平台数据,很可能已经侵害平台或第三方的民事权益,包括著作权、商业秘密权或个人信息权等。


比如,在深圳公交汽车信息案中,用户并不能够获取原告存储在服务器后台关于公交实时情况的数据集合,被告采用黑客手段破解了原告客户端安装包的加密算法获得密钥,然后将自己的未授权程序伪装成原告授权客户端,变换IP地址利用爬虫密集访问原告服务器,日均获得300万—400万条实时数据。


再如,在湖南蚁坊案中,被告通过非正常的技术手段破坏或者绕开新浪微博所作的技术限制,获取新浪服务器后台存储的登录用户都难以看到的数据。这类规避措施之所以不正当,是因为用户并非通过公开渠道对平台页面或客户端进行观察、测试和分析而得出平台内在的反爬虫措施原理,而是在以盗取、教唆、利诱等不正当方式获取平台的访问密码或加密算法等秘密信息后,再使用爬虫工具下载数据信息。这类的“不正当方式”与商业秘密法上禁止的不当行为大致相当。


值得一提的是,此类访问密码或加密算法等技术措施本身其实很可能构成平台或用户的核心商业秘密。商业秘密法原本就禁止用户利用不正当手段破坏此类技术措施。即便平台利用这类措施保护的数据不构成商业秘密,法律也应保护此类技术措施。


这是因为,平台所采取的此类接触控制措施,通常已经是它能够采取的最为有效的技术措施了,难以继续强化。平台采用此类措施,通常也是因为平台为信息收集付出了实质性的劳动,控制该商业信息对自己有重要的价值。如果允许公众通过上述不正当手段侵入平台系统,将刺激平台采取更多的更昂贵的保护措施,增加社会成本。因此,刑法禁止公众未经许可破坏平台网络安全措施侵入计算机系统,而不论平台是否对其数据享有专有权利。


最后,还需要澄清一点。在上述不当规避的情形下,法律以保护平台民事权益或禁止规避接触控制措施的名义,其实就可以防止用户获取数据,并不一定需要考虑用户使用爬虫工具行为本身的合法性。这是因为用户以上述不当方式获取访问权限后,即便以人工访问而非爬虫下载方式获取数据,依然会被认定为违法。用户使用爬虫工具,只是使得它能够获取更大规模的数据,造成更大的损害,相应地,侵权责任也就更严厉。换言之,在不当规避情形下,法律实际上并不需要专门就用户使用爬虫工具的行为进行单独的定性。


用户协议中的反爬虫约定


对爬虫敏感的网络平台,除了采取技术措施限制爬虫外,还可能会要求用户注册,并在用户协议中禁止用户使用爬虫工具,或者禁止用户超出许可的范围使用爬虫工具获取额外的数据。包含反爬虫条款的用户协议,一般是网络平台通过网页或客户端界面提供的格式合同,用户在注册账号或安装用户端时点击“同意接受”,否则无法完成注册或程序安装。通过这一方式订立的合同被称作“点击合同”。一般而言,合同内容只要经合理提示,就自然被视为合同内容的一部分。这一缔约方式的合法性不再会受到实质挑战。真正容易引发争议的是,点击合同的具体条款是否会因为违反公共政策而失去法律的约束力。


具体到反爬虫问题,如果用户协议中的反爬虫约定有效,则要求用户注册才提供服务的平台很可能会限制用户使用爬虫工具。这是因为平台在用户协议中设置限制爬虫条款,几乎没有任何商业成本;多数普通用户通常也仅仅以人工浏览方式从平台那里获得有限的数据服务,并不会使用爬虫,因而也不会在意协议中的反爬虫条款。比如,社交媒体、网络期刊数据库、网络地图等平台的普通用户通常就属于此种类型。反对反爬虫约定的,应该只是为数不多的需要大规模获取数据的专业用户。感受不到来自普通用户的压力,平台自然会偏好在用户协议中限制用户使用爬虫工具。


接下来的问题是,发生争议后,法院是否应当承认此类反爬虫约定的法律效力?这并非容易回答的问题,值得深入探讨。接下来,笔者先介绍过去知识产权法处理类似问题时出现的典型反对意见——“私立知识产权”理论,然后分析反爬虫场景与这一理论应用场景的区别,提出支持反爬虫约定的主要理由,并提出限制反爬虫约定的安全阀机制。


(一)“私立知识产权”理论


在判断反爬虫约定是否有效之前,我们先简要回顾一下知识产权法领域的类似的许可条款效力争议。在知识产权许可实践中,很多权利人选择在许可协议中限制用户原本并不侵权的使用行为,或者排斥相关法律中的权利限制条款的适用。比如,著作权法对作品的合理使用,专利法对非营利目的的使用,商业秘密法对反向工程或非秘密信息的利用等,都有例外规定。公众使用智力成果的行为如果落入这些例外规定,则并不侵害知识产权。如果权利人在知识产权许可协议中,限制用户的上述行为,则会引发这类约定是否有效的法律争议。这与本节关注的反爬虫约定是否有效的争议,异曲同工。


最为流行的否定上述知识产权许可协议条款法律效力的意见认为,知识产权法在公众和权利人之间维持精细的利益平衡。为此,知识产权法既规定了具体的权利内容,也规定了权利限制措施。如果权利人在合同中排除权利限制规则的适用,则相当于权利人自己重新定义了知识产权保护的内容和边界,从而打破了立法者确立的利益平衡关系。


因此,有很多学者认为,无论知识产权人是否有市场支配地位,法律都应该干预知识产权人限制公共领域自由的合同条款。在“点击合同”的情形下,这一理论就更具有直觉性的说服力。因为缔约方式简便,大型的网络平台可以轻易要求用户接受许可协议中排除诸多知识产权权利限制的规则。这意味着,稍微有点市场力量因而控制数据信息入口的平台,很容易利用合同破坏知识产权法所确立的利益平衡。结果,这很像权利人利用大规模的许可协议重新规定了知识产权的内容,即所谓的“私立知识产权”。之所以说是“私立”,因为它并非来自立法机关的确认,而是基于私人协议。


在网络时代,很多平台选择只向用户提供数据的接触权,而不再提供离线的完整版本的数据产品(比如完整的电话号码黄页、数据库光盘版、纸质大辞典等)。这使得用户只能接触平台控制的数据集合中的零碎部分,用户获取和传播完整数据集合的机会大大降低。这样,权利人就可以利用合同将所有的在线接触者都约束起来,禁止他们获取和传播完整的数据集合。这与过去权利人通常向用户提供包含全部数据内容的离线数据产品,容易对该离线产品的后续利用失去控制的情形有很大差别。


在离线许可模式下,即便合同条款中排除了合理使用或其他权利限制条款,第三方还是很容易获取离线内容,导致权利人强化控制的目的落空。而在网络在线许可的情况下,权利人采取技术措施后,被许可人和第三方可能都很难得到完整的信息内容。这意味着网络技术进步大大强化了平台对数据内容的实际控制,导致传统的为了公共利益目的的数据或信息获取和使用的自由受到更多的威胁。因此,相对离线许可模式,学者们更担心网络时代“点击合同”中权利限制排除条款的负面影响。


“私立知识产权”理论并非仅仅停留在纸面上,它实际导致部分国家和地区的立法禁止部分知识产权人利用许可条款排除权利限制条款的适用。比如,比利时版权法明确规定,版权法的权利限制条款(合理引用、私人目的复制、新闻报道、滑稽评论等)都是强制性的,不得通过合同排除。欧盟《计算机程序法律保护指令》规定,用户以备份软件、研究、实现兼容为目的的使用软件行为等不得通过许可协议排除,以保证用户在公共领域的行动自由。《欧盟数据库指令》也禁止数据库权利人在合同中限制公众利用数据库中不受保护的内容的自由。


不过,有意思的是,在Ryanair案中,欧盟法院认为,如果数据库不受《欧盟数据库指令》保护,即既不受著作权保护,也不受特殊权利立法保护,则当事人关于该数据库利用的合同约定不受该指令第15条的限制。权利人是否可以利用合同限制他人对数据库内容使用,由各个成员国国内法确定。


在美国法下,也有少数法院否定此类条款的效力。比如,在Vault案中,美国联邦第五巡回法院认为,明确许可软件著作权人通过合同限制用户对软件进行反向工程的州法律,应该被联邦法律排除。即软件许可合同不得排除用户反向工程的自由。美国最高法院在Kimble案和Brulotte案中始终对专利权人在专利到期后继续收取许可费的许可条件持反对态度。不过,在多数案件中,美国法院并不否定知识产权许可协议中排除权利限制条款的效力。比如,在著名的ProCD案中,法院就认为,通过合同限制用户的使用行为,与直接的立法赋权有本质区别,强调合同自由。在Aronson案中,美国最高法院许可当事人约定在技术秘密被公开后继续支付许可费。


在中国,知识产权法中权利限制条款是否可以被合同排除,没有明确的答案。司法实践中,此类争议并不多见。在个别案件中,有法院认为,我国法律无禁止当事人在许可使用合同中约定禁止反向工程条款的规定,原告主张该条款排除其基本权利没有法律依据。国内有学者持相反意见,认为知识产权法上的权利限制条款体现了强制性的公共政策,因此不应当被合同排除。


利用“私立知识产权”理论来分析用户协议中反爬虫约定的法律效力,是很自然的选择。反爬虫条款的约束导致用户只能在平台设定的范围内接触和使用平台数据,难以规模化地复制和利用原本有可能可以自由利用的平台数据。因此,平台基于用户协议所取得的控制权,看起来很接近平台的“私立知识产权”(或私立数据产权),限制了用户的行动自由,有可能破坏了平台与用户间的利益平衡。在这一意义上,用户协议中反爬虫约定,就像商业秘密法下限制反向工程的条款一样,容易引发效力争议。接下来,我们要回答的问题是,反爬虫约定是否应该无效呢?本文认为答案是否定的,接下来具体说明理由。


(二)支持反爬虫约定的理由


“私立知识产权”理论在解释单纯的知识产权许可条款的效力时,可能有一定的说服力。不过,在反爬虫协议的背景下,这一理论能提供有效的指引,这是因为反爬虫场景有自身的特殊性,比单纯知识产权许可场景更要强调双方的合同自由。


一方面,否定反爬虫约定的效力会导致平台反爬虫措施丧失合法性基础,威胁平台更大范围的投资利益。在普通的知识产权许可合同中,被许可人能够接触的智力成果的内容通常是确定的。法律否定协议中排除权利限制条款的效力,一般并不会实质改变被许可人接触权利人的智力成果的范围,即不会实施改变交易的内容。因此,即便法律否定此类条款的效力,也不会使权利人更大范围的投资成果受到影响。


在平台服务的场景下,法律否定反爬虫约定的效力,则有显著不同的结果。平台与用户签署服务协议后,通常仅许可用户接触实现服务目的所需的零散数据,并据此确定合同对价。这属于合同自由的范畴,具有法律上的正当性。


对爬虫敏感的平台,会在协议或平台规则中明确,平台有权对使用爬虫的用户采取反制措施,比如,强制进行人工认证、临时中断服务、永久封号等措施。如果法律宣布双方的反爬虫约定无效,则意味着负有持续提供网络信息服务义务的平台不能因为用户使用爬虫而中断或终止服务。在用户付费的情况下,尤其如此。


于是,很可能出现这样的局面:用户超出平台的预期和网络服务的范围,使用爬虫四处爬取数据,但平台却不能采取反制措施。这实际上使得平台难以事先定义并限定自己所提供的信息服务的具体范围,事后可能因为法律的干预而导致很大范围的投资利益得不到保护。


法律否定反爬虫约定的效力后,平台对整体数据的控制权被动摇,平台将被迫调整自己的行为模式。最终,平台要么进一步限制可以接触数据的用户的范围,采用更有效的技术措施,寻求接近商业秘密的严格保护(用户不再能规避保密措施);要么对普通用户收取更高的服务费用,以弥补数据失控带来的损失。这实际上导致更多的普通用户无法获得平台的服务,不符合社会利益。从这一分析看,在一般交易中,法律许可当事人自由决定自己的事情,有其内在的固有价值,能够实现资源的最有效利用,避免双方的期待落空。


另一方面,承认反爬虫约定的效力并不会导致系统性的市场失败。“私立知识产权”理论的最大缺陷在于,它并不直接告诉我们,何种程度的“私立知识产权”是不可接受的。依据这一理论的逻辑,任何许可协议,只要背离知识产权法的赋权性规定,就都有可能被视为是“私立知识产权”。因此,“私立知识产权”理论本身并不能为我们审查许可合同条款的效力提供有效指引。我们需要寻找更好的替代性理论的指引。


权衡合同自由与合同外部性的理论应该是更好的替代方案。马克·莱姆利(Mark Lemley)教授对此提供解释,认为知识产权许可不仅仅涉及双方的利益,还可能会给第三方或公众带来负面影响(即外部性),因此不能单纯强调合同自由。在某些私人交易中,当事人对于自己放弃的自由的标价可能较低,而实际上对于社会公众的负面影响可能超出该标价。如果双方依据约定在分配权利或资源时,就可能损害社会的整体福利。这时候,社会就会拒绝接受当事人的合同约定。


以合理使用为例。如果著作权人在许可协议中限制被许可人对作品进行批评或讽刺等,所有购买被许可人作品的消费者的利益都可能受到负面的影响。对被许可人而言,他不过是放弃了一次发言的机会。但是,他对某一作品的评论,公开传播之后,可能会影响千万人的看法,从而产生巨大的社会福利。公众的这些福利很多时候并不一定能转化为被许可人(评论人)的收益,因此,被许可人在放弃评论自由时并未考虑这一社会福利损失。


对于反向工程的放弃,也会产生类似的后果。软件使用者放弃反向工程,就可能导致公众失去通过该使用者了解软件背后设计知识的可能性。因此有学者认为,许可协议中禁止反向工程的约定会妨碍知识的传播和进步,从竞争政策的角度,应该许可反向工程,降低产品兼容或过渡的成本。


当然,在非知识产权许可的场合,合同交易也可能产生负外部性。比如,超市进货在要接受更高的价格之后,就会将价格转嫁给消费者。但这时候我们通常并不因此要求审查超市进货价格的合理性。问题的关键是,公众在多大程度上会受到这一不合理条款的影响。在有形物的买卖合同中,多数情况下,交易的外部性影响有限,法律干预的必要性很小。而在知识产权许可交易中,潜在的负外部性会因为知识产权客体的非竞争性而被放大无数倍。一个人放弃评论的权利,可能会导致成千上万人因此失去受启发的机会。因此,这时候决策者会更积极地干预知识产权许可中的限制条款,以避免社会福利的损失。


不过,宣布排除知识产权限制的合同条款的无效,是否一定会产生社会福利,有很大的不确定性。被许可人即便评论了作品,或采取了反向工程,也未必会创作出有意义的作品或公开有意义的知识。被许可人即便放弃上述权利,也并不意味着其他不受合同约束的创作者不能取而代之。而从权利人的角度,限制被许可人的评论或反向工程,对于自己收回投资有可能有积极意义。因此,宣布上述合同条款无效,是否创造社会净福利,有很大的不确定性。正因为如此,全球各地决策者在面对排除知识产权限制条款时,立场并不完全一致。


从合同负外部性的视角看,承认反爬虫约定的法律约束力,并不会产生实质性的无法被当事人内部化的负外部性。理论上,反爬虫约定会压缩用户利用平台数据的自由。不过,问题的关键不在于用户是否被合同束缚,而在于这是否会妨碍有效的交易结果出现。如果被合同约束的用户,依然有机会和平台进行谈判,以实现资源从平台向更有效率的用户转移,则承认合同的约束力也无妨。在传统的知识产权领域,通过合同排除合理使用、反向工程,之所以引发巨大的争议,是因为决策者对于被许可人是否有足够的动力与权利人谈判,以摆脱合同限制从而实现有效率的结果,并不十分清楚。


承认反爬虫约定的效力是否会导致类似的负面后果,也存在模糊性。不过,所幸的是,反爬虫约定导致市场失败的可能性要小很多,法律干预的必要性因此远低于干预限制合理使用或反向工程的合同条款的必要性。合理使用之所以被著作权法接受,通常是因为合理使用的平均价值(对使用者而言)相对较低,而对公众而言可能有重要价值,使用者不愿意负担交易成本以获得使用机会,从而导致市场失败,并损害公共利益。如果许可著作权人轻易通过合同排除合理使用,则原本的市场失败有可能被固化。因此,在某些情况下,法律可能有必要干预那些排除合理使用的约定。


在反爬虫问题上,平台利用协议约束的通常是需要利用爬虫大规模收集数据的用户,而不是小规模(人工收集所能达到的规模)的数据用户。平台许可所有注册用户以人工方式访问前台数据,因此,小规模数据利用需求,很可能也是价值较低的数据利用需求,并未受到反爬虫约定的影响,没有市场失败的问题。而利用爬虫工具获得的大规模数据,对使用者而言,通常也具有较高的利用价值。即便法律明确将限制爬虫的权利赋予平台一方,希望使用爬虫工具的用户也有足够的动机与平台进行谈判,以获得数据使用许可或爬虫使用许可。当然,通过谈判,平台完全有可能愿意向用户开放更高效的数据API接口,而不是简单许可用户利用爬虫费劲地从前台爬取数据。


当然,在个案中,平台和用户可能对数据价值的主观认知存在差异,最终导致谈判失败。但这并不意味着市场失败,这只是用户的出价没有达到平台的预期。在诸多平台和用户各自相互竞争的市场上,没有理由认为,所有平台都会坚持不合理的高价预期而导致有效的数据利用无法实现。在平台数据对用户而言有实质利用价值,不存在交易成本障碍,且又不威胁平台经营利益的情况下,我们应该对市场机制有足够的信心。


有人可能因此会提出这样的疑问:前文第四节在讨论反爬虫措施的规避问题时,主张用户可以合理规避该技术措施,以保护用户在公共领域的行动自由。为什么平台在反爬虫措施的基础上增加了合同约束,用户在公共领域的行动自由就不再重要了呢?这是不是前后矛盾呢?答案是否定的。首先,如前所述,合同自由还是非常重要的价值,其本身足以改变原本围绕反爬虫措施所建立起来的十分精细也很脆弱的利益平衡,使得天平重新向平台倾斜。其次,要求用户注册并接受合同约束,还是会实质增加平台的经营成本,除非数据本身对平台足够重要,很多平台不会这么做。这还是会使得大量数据留在公共领域。


这也正是宣称自愿遵守“机器人协议”的谷歌(Google)等搜索引擎,依然有用武之地的原因所在。要知道,在网站上的“机器人协议”中作排除爬虫访问的声明,比维持用户注册验证系统要简单得多,但依然有很多网站选择不发布反爬虫声明而对爬虫开放。最后,承认反爬虫约定有效,并不意味着用户就别无选择。实际上,“效率违约”(efficient breach)始终是用户的选项之一。只要法院在此类违约诉讼中计算违约损失时,不过分偏离平台的实际损失,则要求用户承担违约责任,也不会造成太大的负面影响。


(三)数据获取的“安全阀”


在承认反爬虫约定原则上有效的情况下,法律还应该为一些局部的市场失败提供解决方案,以维持更精细的利益平衡。这里所说的局部的市场失败,主要包括两种情形:其一,非营利目的的科学研究中的数据获取和利用(以下简称科学研究目的使用);其二,具有市场支配地位的平台的数据(以下简称垄断数据)的获取和利用。


科学研究目的的数据获取和使用行为,之所以特殊,是因为从事这类研究的机构和人员,通常资源相对有限,也无法将研究成果所带来的社会收益内部化。如果要求他们使用爬虫获取平台数据时,一定要获得平台的许可,则很可能导致研究项目的数量减少或者被放弃。过去,美国反对数据库保护专门立法的重要力量就是美国教育、科研机构和图书馆。他们中很多人反对的理由就是,此类数据产权保护会增加科研人员获取数据的成本,妨碍技术进步。在他们看来,现代科研和教育体制建立在对公共领域的数据的自由接触和利用的基础之上。


为基础科研和教育目的传播数据,促进公共利益应该得到保障。研究机构或图书馆经常需要从多个(有时候多达数百个)公开渠道收集数据信息,然后再向科研人员提供数据服务。如果研究机构或图书馆获取数据和对外提供数据时需要获得权利人许可,这可能会大大增加科研成本。


考虑到学术科研机构和人员的上述担心,决策者可以考虑将非营利目的的科学研究的数据爬取行为设置成类似合理使用的例外,并禁止平台利用用户协议排除这一例外的适用。在极端情况下,甚至可以禁止平台针对这一类的使用行为设置反爬虫技术措施。当然,用户因为这一目的利用爬虫工具收集数据时,还是应该避免过度频繁地访问平台服务器,损害平台的正常经营利益;否则,须承担相应的法律责任。


除了科学研究目的外,另一需要特别考虑的例外情形是垄断数据的爬取问题。过去,数据垄断的关切大多来源于部分平台对单一来源数据的实际控制。平台可能利用其垄断地位,区别对待下游(后续)数据利用者,为部分下游利用者进入市场制造实质性障碍,或者使得后续的数据利用者无法按照合理的价格获得许可,从而妨碍后续创新。在这一背景下,反垄断法可能会以禁止歧视或开放“必要设施”的名义,要求平台更大程度地开放数据。必要时,对单一来源的数据适用强制许可,也是可能的选择。


上述反垄断法逻辑同样可以适用于反爬虫技术措施和约定的分析。当具有市场支配地位的平台通过反爬虫约定或者反爬虫措施,限制用户获取较大规模的数据集合,产生损害竞争的后果时,法院可能宣布此类约定条款无效,或者暂时或永久强制要求平台停止反爬虫措施。


过去,在奇虎诉百度案中,就涉及类似问题,只不过法院适用《反不正当竞争法》而不是《反垄断法》来处理。在该案中,法院认为百度公司“在缺乏合理、正当理由的情况下,以对网络搜索引擎经营主体区别对待的方式,限制奇虎公司的360搜索引擎抓取其相关网站网页内容,影响该通用搜索引擎的正常运行,损害了奇虎公司的合法权益和相关消费者的利益,妨碍了正常的互联网竞争秩序,违反公平竞争原则”。


未来,法院在处理上述反爬虫协议的效力争议时,还是应该更直接地适用《反垄断法》而不是《反不正当竞争法》。具体而言,在平台没有支配地位的情况下,用户与平台达成协议,承诺不使用爬虫工具,大体属于合同自由的范围,反垄断法没有干预的必要。当然,在具体的个案中,认定平台具有支配地位、反爬虫协议损害竞争,是一个复杂的问题,限于写作目的,不作深入探讨。


此外,还需要强调的是,很多时候平台并不当然具有垄断地位。数据具有多栖性,同一网络用户的数据信息可能同时被多个服务环节的服务商接触并收集。比如,个人的住址信息,可以通过观察个人的行动轨迹来获得,共享单车服务平台、导航服务商、水电供应商、移动通讯服务商等,都可能从不同角度掌握个人的行动轨迹。因此,单个企业其实难以垄断个人住址信息。


再如,联网汽车用户的实时路况信息也可能同时为汽车制造商、汽车自动驾驶系统的提供商、网络通讯服务的提供商、汽车导航系统软件的开发商等所共同接触和收集。因此,单个平台数据的可替代性并不像想象的那么低。这一事实也提醒决策者,在处理反爬虫争议时,要对合同自由背后的市场机制有足够的信心和耐心,不要轻易适用反垄断法来排除双方自主交易的可能性。


结论


网络用户使用爬虫工具自动获取原本可以通过人工访问的数据,可以大大节省成本,有明显的正面收益,原则上应该被鼓励。平台可以限制爬虫访问而采取技术措施,但是,限制爬虫的“机器人协议”,或者识别并封禁爬虫的技术措施,并不应该直接受到法律的保护。用户爬虫可以无视“机器人协议”或合理规避该技术措施,而无须为这一行为承担法律上的后果。只有网络爬虫高频访问,过度挤占平台的服务器资源并影响它对外正常服务时,才有法律干预的必要。


不过,如果网络平台要求用户注册,并利用用户协议限制用户使用爬虫工具,则这一约定通常具有法律约束力。与此配套的“安全阀”机制是,非营利目的的科学研究目的使用和来源有限的重要数据的反垄断规制。本文关注的是反爬虫措施本身直接获得法律保护的必要性以及规避行为的法律定性,而没有太多关注反爬虫技术措施所覆盖的平台数据本身在实体法上的保护问题。理论上,即便用户规避反爬虫措施的行为本身合法,用户对数据复制和使用行为依然有可能侵害平台或第三方的著作权、个人信息权或其他民事权益。


按语



  • 大数据时代数据保护与数据权利体系


编者按


2022年12月,党中央、国务院出台《关于构建数据基础制度更好发挥数据要素作用的意见》(又称《数据二十条》),该意见提出加快构建数据基础制度的目标,强调要“探索建立数据产权制度”。在司法实践中,与数据上的财产权益有关的争议案件频繁发生,这与迄今学术研究对于应否在数据上确权、数据财产的初始权利归属和权利架构形式等一系列基础问题尚存在重大理论分歧有着密切关联。为此,本刊特别约请五位专家分别撰文就上述基础问题展开研究,以期在促进理论共识之形成的同时,为相关立法以及司法裁判提供理论参考。


北京大学法学院张守文教授撰文《数据行为的经济法规制》,围绕应运用哪些制度规范纷繁复杂的数据行为、规范的过程中涉及数据主体的哪些权利或权益等重要问题展开论述。作者突破了多数民法学者所提倡的“先确权、后制定治理规则”的“强调确权路径”,强调通过经济法规制来保障相关主体的合法权益。这种数据治理思路不仅有助于维持立法体系的稳定性,还有助于发挥既有经济法理论研究成果的优势,解决数据治理领域的逻辑不统一问题。


在应否于数据上确权的问题上,清华大学法学院申卫星教授持肯定态度。《数据产权:从两权分离到三权分置》一文主张通过拆分财产权中主要权能的方式,呈现数据持有人的财产权利。贯彻该观点的意义在于,其有助于在充分尊重和保护数据来源主体的法定在先权益的前提下,促进数据交易和利用。


武汉大学法学院教授张素华、武汉大学法学院博士生王年撰写的《数据产权“双阶二元结构”的证成与建构》一文围绕应否于数据上确权以及如何确权这两大问题展开。作者以数据产权“三权分置”为论证起点,在逐一评析相关代表性观点之得失的基础上,提出“双阶二元结构”,并以此针对数据生产环节与流通环节,构建出了一个颇具创新性的权利架构方案。


清华大学法学院崔国斌教授《网络反爬虫措施的法律定性》一文关注反爬虫措施本身直接获得法律保护的必要性以及规避行为的法律定性。文章认为,网络用户使用爬虫工具自动获取原本可以通过人工访问的数据,节省成本,有明显的正面收益,原则上应该被鼓励;但是用户在获取平台数据时,不得通过盗取访问密码与加密算法等不正当方式破坏平台的“接触控制”类技术措施。平台可以限制爬虫访问而采取技术措施,平台用户协议中限制用户使用爬虫工具的约定,通常具有法律约束力;但限制爬虫的“机器人协议”,或者识别并封禁爬虫的技术措施,并不应该直接受到法律的保护。


中国人民大学法学院丁晓东教授撰文《论人工智能促进型的数据制度》聚焦于何种制度能够促进人工智能的发展展开。文章在揭示我国现有数据立法所遭遇的困境的基础上,分析了该困境的产生根源——大规模微型权益聚合难以合法、有效的实现;并在此基础上,提出了化解困境的根本出路——从个人信息保护、著作权、数据互联这三个维度出发,基于数据的公共性,重构人工智能时代的数据法律制度。




《中国法律评论》

基 本 信 息

定价:408.00元

出版:法律出版社

期刊号:CN10-1210/D

出版时间:2023年

册数:全年6册装


《中国法律评论》2023年第6期




点击阅读原文,即可购刊包邮~


中国法律评论

我刊由中华人民共和国司法部主管、法律出版社有限公司主办。国家A类学术期刊,中文社会科学引文索引(CSSCI)来源期刊,中国人文社会科学期刊AMI综合评价核心期刊。我刊秉持“思想之库府,策略之机枢”之理念,立足于大中华,聚焦中国社会的法治问题,检视法治缺失与冲突,阐释法律思想,弘扬法律精神,凝聚法律智慧,研拟治理策略,为建设法治中国服务,为提升法治效能服务,为繁荣法学服务。



《中国法律评论》投稿邮箱:

chinalawreview@lawpress.com.cn

中法评微信公众号投稿邮箱:

stonetung@qq.com


刊号:CN10-1210/D.

订刊电话:010-83938198

订刊传真:010-83938216


继续滑动看下一个
中国法律评论
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存